moe

DeepSeek深度求索“非共识”

“过去很多年里,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”

deepseek moe 文锋 2025-02-07 15:59  17

这类芯片,比GPU更好!

近年来,人工智能模型的性能越来越高,但规模也越来越大。神经网络权重占用的内存量一直在稳步增长,有些模型的参数多达 5000 亿甚至数万亿。在传统计算机架构上进行推理时,每次移动这些权重进行计算都会耗费时间和能源。模拟内存计算将内存和计算结合在一起,消除了这一瓶

芯片 gpu moe 2025-02-07 12:20  17

DeepSeek突曝异常!原因竟然是…

有人说它是“另一个 Mistral”,也有人调侃它“还没学会走路,就要挑战 OpenAI”。 更有意思的是,规模不大的DeepSeek 官方特别具有的“神秘感”——低调、不回应、不解释,甚至没有一篇正式的技术博客,让它的一切更添悬念。

deepseek moe 林芳正 2025-02-05 11:22  21

从0到1:ChatGPT与DeepSeek的深度对决

在科技飞速发展的当下,人工智能(AI)已然成为推动各领域变革的核心力量。从最初简单的算法模型,到如今能够模拟人类思维、进行复杂任务处理的智能系统,AI 的每一次突破都吸引着全球目光。在这个充满创新与竞争的 AI 领域,ChatGPT 与 DeepSeek 无疑

chatgpt deepseek moe 2025-02-03 04:18  18

全面超越Deepseek,阿里大年初一放大招

10天前,大家都准备回家过年了,结果来自浙江的一家小公司DeepSeek(深度求索)火了,它发布的V3模型,震惊了美国AI圈和金融圈,还上了新闻联播,一夜之间和华为、阿里比肩齐名了,搞的扎克伯格一度呼吁美国加紧封锁中国AI技术。

llama deepseek moe 2025-01-30 20:40  21

DeepSeek:中国AI搅动全球风云

在当今科技飞速发展的时代,人工智能无疑是最耀眼的领域之一,而中国的AI力量正以惊人的态势崛起,尤其是DeepSeek的出现,宛如一颗重磅炸弹,在全球AI领域掀起了巨大波澜。

deepseek moe 辛顿 2025-01-27 02:43  19

DeepSeekV3 你真的好快啊

我们推出了DeepSeek-V3,这是一款强大的混合专家(Mixture-of-Experts, MoE)语言模型,总参数量达到6710亿,每个token激活的参数量为370亿。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力机制

moe mla deepseekv3 2025-01-20 10:42  18

详解DeepSeek-V3:大模型训练加速神器,MoE焕发新生丨智源深度

在当前人工智能发展的主要议题中,可扩展且高效的AI模型占据了重要的位置。这不仅涉及到模型的性能,也涉及到如何在有限的计算资源下完成高效的运算。我国科技企业在过去的几年里,始终坚持着开发出能够解决更为复杂问题并处理更大数据量的模型的目标,而这一切并不需要依赖过多

训练 模型 moe 2025-01-17 18:43  17

Meta探索大模型记忆层,扩展至1280亿个参数,优于MoE

预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。对于主要将信息编码为线性矩阵变换权重的密集深度神经网络来说,参数大小的扩展直接与计算和能量需求的增加相关。语言模型需要学习的一个重要信息子集是简单关联。虽然前馈网

模型 meta moe 2025-01-04 21:43  21

DeepSeek-V3:美国芯片封锁的“意外”产物?

幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。他们仅用2048块H800显卡、耗时两个月,就训出了一个6710亿参数的DeepSeek-V3。相较于Meta训练参数量4050亿的Llama 3,用了16,38

芯片 moe mla 2025-01-03 10:03  21